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System zur Sprachsteuerung mit einem Mikrofonarray 

Die Erfindung betrifft ein System zur Sprachsteuerung mit 
einem Mikrofonarray , die insbesondere zur Steuerung von 
Geraten der Unterhaltungselektronik genutzt werden kann. 

Stand der Technik 

Sprachsteuerungssysteme finden in einer Vielzahl von 
technischen Gebieten Anwendung . Die gesprochenen Worte 
werden hierbei zunachst als Schallsignale detektiert, 
iiblicherweise durch ein oder mehrere Mikrofone, und dann 
einem Spracherkennungssystem zugeflihrt. Die 
Spracherkennung basiert hierbei iiblicherweise auf einem 
Akustik- und einem Sprachmodell . Das akustische Modell 
nutzt eine grofte Anzahl von Sprachmustern, wobei 
mathematische Algorithmen dazu verwendet werden, die 
akustisch am besten passenden Worte zu einem gesprochenen 
Wort anzugeben. Das Sprachmodell wiederum basiert auf 
einer Analyse, bei der anhand von einer Vielzahl von 
Dokumentproben festgestellt wird, in welchem Kontext und 
wie haufig gewisse Worter normalerweise verwendet werden. 
Mit solchen Spracherkennungssystemen ist nicht nur das 
Erkennen einzelner Worter, sondern auch von fliefiend 
gesprochenen Satzen mit hohen Erkennungsraten moglich. Die' 
Erkennungsrate sinkt jedoch drastisch, wenn nicht 
vernachlassigbare Hintergrundgerausche vorliegen . 



Die Robustheit gegen solche akustische Storeinf liisse kann 
auf verschiedene Weisen erhoht werden. So wird bei 
Diktiersystemen fur Computer ein Mikrofon an einem 
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Kopfhorergestell direkt vor dem Mund des Sprechers 
befestigt. Bei diesen Systemen kann nur durch die 
unmittelbare Nahe zum Mund ein sehr konstantes Signal und 
damit eine zum Teil beachtliche Erkennungsrate erreicht 
werden. Ebenso ist es bekannt, ein Fernsehgerat zu 
steuern, indem die Bedienungsbef ehle in das in einer 
Fernbedienung integrierte Mikrofon gesprochen werden. Auch 
hier mufi jedoch die Fernbedienung unmittelbar vor den Mund 
des Benutzers gehalten werden. 

Erf indung 

Der Erfindung liegt die Aufgabe zugrunde, ein System zur 
Sprachsteiierung anzugeben, welches eine ausreichende 
Storf estigkeit auch bei Spracheingabe aus grofierer Feme 
ermoglicht. Diese Aufgabe wird durch die in Anspruch 1 
angegebene Vorrichtung gelost. 

Urn eine Sprachsteuerung auch aus grofierer Feme zu 
ermoglichen, muii das Sprachsignal von storenden 
Hintergrundsignalen getrennt werden. Dies kann durch eine 
raumliche Trennung unter Verwendung von Mikrof onarrays aus 
zwei Oder mehr Mikrof onen erfolgen. Hierbei ist es von 
Vorteil, die einzelnen Mikrofone des Mikrof onarrays 
raumlich uber eine moglichst grofte Distanz zu verteilen. 
Bei einem einzelnen Unterhaltungselektronikgerat sind die 
Abstande zwischen den einzelnen Mikrof onen jedoch aufgrund 
der Gerateabmessungen begrenzt, wie z.B. bei einem 
Fernsehgerat auf unter einen Meter. 

Im Prinzip besteht das erf indungsgemalie System zur 
Sprachsteuerung aus einem Mikrof onarray mit mehreren 
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Mikrofonen zur Umwandlung von Sprachbef ehlen in 
elektrische Signale und einer zentralen 

Spracherkennungseinheit zur Umwandlung dieser elektrischen 
Signale in Bedienungsbef ehle, wobei die Mikrofone auf 
5 verschiedene Gerate verteilt sind, die miteinander in 

solcher Weise verbunden sind, daii die durch die Mikronfone 
erzeugten Signale zu der zentralen Spracherkennungseinheit 
iibertragen werden konnen. 

10 Vorteilhaf terweise werden hierbei die Gerate iiber ein 
bidirektionales Netzwerk verbunden, welches besonders 
> vorteilhaf t auf einem IEEE-1394-Bus basiert. 

Besonders vorteilhaft ist das System, wenn ein oder 
15 mehrere Mikrofone in einem Unterhaltungselektronik™ 

Wiedergabegerat , insbesondere einem Fernsehgerat , und ein 
oder mehrere weitere Mikrofone in externen Lautsprechern 
integriert sind. 



20 



25 



Zeichnung 

Anhand der Zeichnung wird ein Ausf iihrungsbeispiel der 
Erfindung beschrieben. 

Diese zeigt eine erf indungsgemafie Anordnung zur 
Sprachsteuerung mit einem Mikrof onarray . 



30 Ausf uhrungsbeispiele 



In Fig. 1 ist schematisch ein erf indungsgemalies System 
dargestellt. An ein Fernsehgerat TV sind zwei externe 
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Lautsprecher LSI, LS2 angeschlossen . Interne, in der Figu 
nicht dargestellte, Lautsprecher des Fernsehgerates 
ermoglichen zusammen mit den externen Lautsprechern eine 
Surround-Sound-Wiedergabe von Mehrkanaltonsignalen, z.B. 
die Wiedergabe von entsprechenden digitalen Audiosignalen 
gemafi dem MPEG-2- oder AC3-Standard . Die externen 
Lautsprecher sind hierbei uber einen IEEE-1394-Bus, auch 
FireWire genannt, direkt an das Fernsehgerat 
angeschlossen, konnten aber ebenso an einen geeigneten 
Surround-Sound-Receiver angeschlossen werden. Die 
Verwendung eines IEEE-1394-Busses ist von Vorteil, da 
dieser eine schnelle Datenubertragunbg und die 
Kommunikation zwischen verschiedenen Geraten ermoglicht. 
Weiterhin kann bei Aktivlautsprechern gleichzeitig eine 
Stromversorgung uber diesen Bus erfolgen. 

Zur Detektion der Sprachsignale ist ein Mikrof onarray 
vorgesehen. Dieses besteht aus zwei in den 
Fernsehempf anger integrierten Mikrofonen MTV1 und MTV2 
sowie je einem in die Lautsprechergehause integriertes 
Mikrofon MLS1 und MLS 2 . Diese setzen die detektierten 
Schallsignale in elektrische Signale um, die durch 
Verstarker verstarkt, durch AD-Wandler in digitale Signal 
umgewandelt und dann einer Signalverarbeitungseinheit 
zugeflihrt werden. Die Signale von den externen 
Lautsprechern werden hierbei ebenfalls uber den IEEE-1394 
Bus der Signalverarbeitungseinheit in dem Fernsehgerat 
zugefiihrt. Diese berucksichtigt den jeweiligen 
Auf enthaltsort des Benutzers durch eine unterschiedliche 
Skalierung bzw. Verarbeitung der detektierten 
Schallsignale. Weiterhin kann auch eine Korrektur der 
Mikrof onsignale beziiglich der von den Lautsprechern 
abgegebenen Schallsignale erfolgen; Das so bearbeitete 
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Signal wird dann einer Spracherkennungseinheit zugefuhrt, 
die die elektrischen Signale in Worte umwandelt . Die 
diesen Worten entsprechenden Befehle werden dann 
schliefilich einem Systemmanager zur Steuerung des Systems 
zugefuhrt . 

Die Skalierung bzw. Verarbeitung der detektierten 
Schallsignale durch die Signalverarbeitungseinheit 
erfordert, daft die raumliche Anordnung der Mikrofone 
bekannt ist. Diese ist fur die in das TV-Gehause 
integrierten Mikrofone bereits herstellerseitig bekannt. 
Fur die in den Lautsprechern angeordneten Mikrofone muft 
dagegen die Position relativ zu dem TV-Gerat noch 
ermittelt werden. Dieses kann durch ein Ausmessen und eine 
Eingabe der ermittelten Werte liber ein entsprechendes 
Bildschirmmenii erfolgen. Ebenso kann jedoch ein Mess- und 
Abgleichvorgang durchgefuhrt werden, indem durch die 
Lautsprecher ein Testsignalton wiedergegeben und von den 
Mikrofonen detektiert wird und aus den unterschiedlichen 
Laufzeiten die Position der Mikrofone ermittelt wird. 

Die beiden in dem Fernsehempf anger integrierten Mikrofone 
konnen vorteilhaft auf der linken und rechten Seite des 
Gehauses des jeweiligen Gerates untergebracht werden. 
Diese Mikrof onanzahl und ebenso die Anzahl der weiteren 
Mikrofone ist jedoch keinesfalls auf zwei beschrankt. 
Ebenso sind eine Vielzahl von Kombinationen denkbar, in 
denen die Mikrofone integriert sind. So konnen Mikrofone 
statt oder zusatzlich zu dem Fernsehgerat auch in einem 
Videorekorder, DVD-Spieler oder einer Fernbedienung 
integriert werden. Selbst eine Installation von Mikrofonen 
in Geraten, die sich in verschiedenen Raumen befinden, ist 
moglich. 



PD990065 - Ri 



14.09.1999 



Weiterhin ist die Verbindung der Gerate nicht auf ein 
Bussystem beschrankt. So ist es z-B. denkbar, bei der 
Ausf uhrungsf orm aus Figur 1 die Lautsprecher stattdessen 

c 

mit Funksignalen anzusteuern. In diesem Fall mussen die 
einzelnen Lautsprecher jedoch zusatzlich zu einem 
Funkempf anger auch einen Funksender aufweisen. 



Die Erfindung kann zur Sprachf ernbedienung von 
verschiedensten Geraten der Unterhaltungselektronik, wie 
z. B. von TV-Geraten, Videorecordern, DVD-Spielern, 
Satellitenempf angern, TV-Video-Kombinationen, Audiogeraten 
oder kompletten Audiosystemen, aber ebenso von 
Personalcomputern oder von Haushaltsgeraten eingesetzt 
werden - 
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Paten tan spriiche 

1. System zur Sprachsteuerung mit einem 

Mikrof onarray bestehend aus mehreren Mikrofonen (MTV1, 
MTV2 , MLS1, MLS 2 ) zur Umwandlung von Sprachbef ehlen in 
elektrische Signale und mit einer zentralen 
Spracherkennungseinheit zur Umwandlung dieser 
elektrischen Signale in Bedienungsbef ehle, dadurch 
gekennzeichnet, daft die Mikrofone auf verschiedene 
Gerate (TV, LSI, LS2) verteilt sind, die miteinander 
in solcher Weise verbunden sind, daft die durch die 
Mikronfone erzeugten Signale zu der zentralen 
Spracherkennungseinheit iibertragen werden konnen. 

2. System nach Anspruch 1, dadurch gekennzeichnet , 

daft die Gerate iiber ein bidirektionales Netzwerk 
verbunden sind. 

3. System nach Anspruch 2, dadurch gekennzeichnet, 

daft das bidirektionale Netzwerk auf einem IEEE-1394- 
Bus basiert. 

4. System nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, daft ein oder mehrere Mikrofone 
in einem Unterhaltungselektronik-Wiedergabegerat (TV) , 
insbesondere Fernsehgerat , und ein oder mehrere 
weitere Mikrofone in externen Lautsprechern (LSI, LS2) 
integriert sind. 
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Zusammenf assung 

Sprachsteuerungssysteme finden in einer Vielfalt von 
technischen Gebieten Anwendung. Die gesprochenen Worte 
werden hierbei durch ein oder mehrere Mikrofone detektiert 
und dann einem Spracherkennungssystem zugefuhrt. Urn eine 
Sprachsteuerung auch aus groBerer Feme zu ermoglichen, 
mufi das Sprachsignal von storenden Hintergrundsignalen 
getrennt werden. Dies kann durch eine raumliche Trennung 
unter Verwendung von Mikrof onarrays aus zwei oder mehr 
Mikrofonen erfolgen. Hierbei ist es von Vorteil, die 
einzelnen Mikrofone des Mikrof onarrays raumlich iiber eine 
moglichst grofte Distanz zu verteilen. Bei einem einzelnen 
Unterhaltungselektronikgerat sind die Abstande zwischen 
den einzelnen Mikrofonen jedoch aufgrund der 
Gerateabmessungen begrenzt. Das erf indungsgemafie System 
zur Sprachsteuerung besteht daher aus einem Mikrof onarray 
mit mehreren Mikrofonen (MTV1, MTV2, MLS1, MLS2 ) , die auf 
verschiedene Gerate (TV, LSI, LS2) verteilt sind, wobei 
die durch die Mikronfone erzeugten Signale zu der 
zentralen Spracherkennungseinheit iibertragen werden 
konnen, vorteilhaf terweise iiber ein bidirektionales 
Netzwerk basierend auf einem IEEE-1394-Bus . 



Fig. 1 
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